阅读更多
英文出处:yahoo labs
译文来自:伯乐在线
【导读】:数据是机器学习研究的命门。访问真正的大规模数据集,是一项传统上由机器学习研究者和大公司的数据科学家所保有的特权,然而大多数学术研究人员缺无法触及。2016年1月14日,雅虎实验室对外发布了发布史上最大机器学习数据集,达 13.5 TB。

数据集主页:http://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75。下面是对雅虎实验室官博文章的翻译。

数据是机器学习研究的命门。访问真正的大规模数据集,是一项传统上由机器学习研究者和大公司的数据科学家所保有的特权,然而大多数学术研究人员缺无法触及。

雅虎实验室的科学家们长期浸淫于面向顾客产品的大规模机器学习问题研究。这使得我们在诸如搜索排名、计算广告、信息检索以及核机器学习等领域进行深入思考。对外部研究团体来说,外部研究团体的兴趣一个关键方面是新算法和方法的应用,对产品买卖和从真实产品收集的大规模数据集。

今天,我们骄傲地宣布向研究团体公开发布史上最大机器学习数据集。该数据集存有海量信息,记录了2015年2月至5月间2千万用户约1100 亿个事件(13.5TB 未压缩)的新闻项目交互数据。

「雅虎新闻种子数据集」是一个基于若干雅虎产品匿名用户交互新闻种子样本,包括雅虎主页、雅虎新闻、雅虎体育、雅虎财经、雅虎电影和雅虎房产。



雅虎主页上的新闻种子

我们的目标是促进大规模机器学习和推荐系统领域的独立研究,为业界和学术研究领域提供帮助平台。数据集作为雅虎 Labs Webscope数据共享计划的组成部分,该计划是由非商用匿名用户数据组成的科学实用数据集的引用库。

除了交互数据,我们还提供匿名用户的分类人口统计信息(年龄段、性别和泛地理数据)子集。在项目方面,我们发布标题、评论和相关新闻文章的关键词组。交互数据标记当地时间信息,并且包含用户访问新闻种子设备的部分信息,新闻种子容许上下文推荐和文本数据挖掘等吸睛业务。

雅虎实验室的个性化科学团队在全维度雅虎新闻种子数据集有许多有趣的作为,这点化了在行为模型、推荐系统、大尺度和分布式机器学习、排名、在线算法、内容建模以及时序挖掘等领域的一些引人注目的思想(例如《鸟类、应用程序和用户:可变尺度因式分解机和科学驱动产品和个性化:超越点击》)。

我们希望发布这个数据能启迪研究者、数据科学家以及机器学习界的发烧友,并用扩展的“真实世界”数据集帮助他们验证模型。我们坚信该数据集能成为大尺度机器学习和推荐系统的标杆,期盼来自我们数据应用团体的佳音。

2016年(大规模)机器学习快乐!
关于我们处理用户隐私的说明:我们的用户每时每刻都置信于我们,我们努力赢得这份信任。我们积极地保护用户隐私,负责任地、透明地使用和保护用户个人信息。因此,作为该计划的一部分,我们业已将发布的数据集匿名化。
  • 大小: 367.5 KB
来自: 伯乐在线
1
0
评论 共 2 条 请登录后发表评论
2 楼 netkiller.github.com 2016-02-02 08:41
一没落的公司,死前回光返照吗? 估计现在就靠阿里的股份支撑着。
1 楼 lyfight 2016-02-01 21:58

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • java JDK1.6 API中文帮助文档、机器学习资料网址、SQL语句学习资料J

    1、机器学习资料:史上最大机器学习数据集,雅虎对外开放了 网址:http://mp.weixin.qq.com/s?__biz=MjM5OTA1MDUyMA==&mid=405724351&idx=2&sn=4f8477c52b2c6a201a66123326d0bb2d&scene=0#rd  2、SQL学习资料...

  • Spark吐血整理,学习与面试收藏这篇就够了!

    Spark VS Hadoop Hadoop Spark 类型 分布式基础平台, 包含计算, 存储, 调度 分布式计算工具 场景 大规模数据集上的批处理 迭代计算, 交互式计算, 流计算 价格 对机器要求低, 便宜 对内存有要求, 相对较贵 编程范式 ...

  • 数据分析侠A的成长故事

    数据分析侠A的成长故事面包君 同学A:22岁,男,大四准备实习,计算机专业,迷茫期作为一个很普通的即将迈入职场的他来说,看到周边的同学都找了技术开发的岗位,顿觉自己很迷茫,因为自己不是那么喜欢钻研写代码,...

  • 12万字 | 2021数据安全与个人信息保护技术白皮书(附下载)

    伴随而来的数据安全风险与日俱增,数据泄露、数据滥用等安全事件频发,为个人隐私、企业商业秘密、国家重要数据等带来了严重的安全隐患。近年来,国家对数据安全与个人信息保护进行了前瞻性战略部署,开展了系统性的...

  • 大规模数据处理的演化历程(2003-2018)

    本文翻译自《Streaming System》最后一章《The Evolution of Large-Scale Data Processing》,在探讨流式系统方面本书是市面上难得一见的深度书籍,非常值得学习。 大数据如果从 Google 对外发布 MapReduce 论文算...

  • 阿里巴巴,果然开始拥有“预测未来“的能力了

    文 | 史中 顶灯闪烁,笛声响彻。 救护车载着病人,冲向茫茫车海,在时间的赛道上狂奔。 高德地图、GPS 卫星导航、路面磁感线圈、1300 个路口摄像头同时开动,为这辆救护车勘探最快路线; GPS 传回实时数据,后台根据...

  • 转折点:移动互联网时代的商业法则

    149 关于学习 153 找乐 157 给大学刚毕业的同学们 160 招聘者是如何筛选简历的 163 《旧制度与大革命》读书笔记 165 不确定世界的生存——《反脆弱》读后感 171 2013 年许维读过的10 本好书 ...

  • 深度好文丨读完此文,就知道Hadoop了!

    预测性数据分析:主要是机器学习类任务,例如逻辑回归等,关注计算模型的先进性和计算能力,实现组件有Spark、MapReduce等; 数据处理及转化:主要是ETL类任务,例如数据管道等,关注IO吞吐率和可靠性,实现组件有...

  • Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

    预测性数据分析:主要是机器学习类任务,例如逻辑回归等,关注计算模型的先进性和计算能力,实现组件有Spark、MapReduce等; 数据处理及转化:主要是ETL类任务,例如数据管道等,关注IO吞吐率和可靠性,实现组件有...

  • hadoop的历史

    abstract: 本学期正在学习大数据专题,课堂上老师并没有刻意去讲Hadoop的历史,于是我从网上找了很多资料,来帮助自己了解Hadoop的历史,以增加理解。 本学期正在学习大数据专题,课堂上老师并没有刻意去讲Hadoop的...

  • 大数据的缘起、发展和未来构思

    第二个是spark的产生,基于弹性分布式数据集的一站式内存计算框架(支持批处理、准实时处理、机器学习、图计算)等,面对大规模的数据计算场景,如果早期MapReduce是为了解决海量数据可以被计算的问题,那么spark在...

  • hadoop知识点总结

    HDFS是一个具有高容错性的文件系统,适合部署在廉价的机器上,HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。大数据处理框架如MapReduce、Spark等要处理的数据源大部分都存储在HDFS上,Hive、HBase...

  • 大数据技术原理与应用第2版-林子雨版-课后习题答案

    1.试述信息技术发展史上的3次信息化浪潮及具体内容。 信息化浪潮 发生时间 标志 解决问题 代表公司 第一次浪潮 1980年前后 个人计算机 信息处理 Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 第二次浪潮 1995...

  • 大数据凉了?不,流式计算浪潮才刚刚开始

    本文翻译自《Streaming System》最后一章《The Evolution of Large-Scale Data Processing》,在探讨流式系统方面本书是市面上难得一见的深度书籍,非常值得学习。更多干货内容请关注微信公众号“AI 前线”(ID:ai....

  • hadoop、spark各大数据组件介绍

    hadoop相关组件 hadoop体系结构,如图: ...是Hadoop应用程序中主要的分布式存储系统, HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNo...

  • Hadoop 十年解读与发展预测(插图+排版)

    文章目录Hadoop 编年史技术篇存储层管控层计算引擎层服务层算法及机器学习产业篇应用篇IT 优化业务优化为什么 Hadoop 如此成功?下一代分析平台下一个十年后记参考资料个人简介 摘自 ...

  • Hadoop十年解读与发展预测

    Hadoop十年解读与发展预测 ... ...编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受

  • 大数据技术原理与应用答案 林子雨 第二版

    1.试述信息技术发展史上的3次信息化浪潮及具体内容。 信息化浪潮 发生时间 标志 解决问题 代表公司 第一次浪潮 1980年前后 个人计算机 信息处理 Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 第二次浪潮 1995...

  • python源码期末大作业基于opencv+TensorFlow的人脸识别+数据集+详细代码解释(期末大作业项目).rar

    本项目基于OpenCV和TensorFlow实现了一个功能完善的人脸识别系统,并附赠了详细的数据集与代码注释。对于计算机专业的学生、教师或企业员工而言,这无疑是一份极具价值的参考资料,尤其适合那些在人工智能、通信工程、自动化及软件工程领域寻求提升的学习者。 项目涵盖了从图像预处理到模型训练、评估及实际应用的全过程。利用OpenCV的强大图像处理能力,对人脸进行精准定位与特征提取;再结合TensorFlow的深度学习框架,构建并训练出高效的人脸识别模型。此外,项目还精心准备了详尽的数据集,确保模型的训练效果。 代码部分,每一行都有详尽的注释,旨在帮助读者快速理解并掌握核心算法。无论是人脸识别的初学者,还是希望在此基础上进一步研究的开发者,都能从中获得宝贵的启示。 经过严格的测试,本项目的各项功能均运行正常,表现出色。请放心下载使用,相信它将成为您课程设计或毕业设计的得力助手,助您在学术与职业道路上取得更高的成就。

  • C语言超市管理系统.zip

    C语言超市管理系统.zip

Global site tag (gtag.js) - Google Analytics